Telegram Group & Telegram Channel
👌 Как найти и избежать утечек данных: пошаговое руководство

Утечки данных — одна из самых распространённых и коварных ошибок в построении моделей машинного обучения.

Вот как шаг за шагом выявить и предотвратить утечки в проектах.

1️⃣ Понимайте, что такое утечка данных

Утечка — когда модель получает данные из будущего или из «ответов», которых не должно быть во время обучения. Вот основные типы:

Целевая утечка (Target Leakage): признаки напрямую или косвенно содержат информацию о целевой переменной.
📝Пример: использовать «сумму страховых выплат» при прогнозе повторной госпитализации.

Утечка после события (Post-Event Leakage): признаки формируются на основе данных, которые появляются после момента предсказания.
📝Пример: использовать данные после завершения полёта для прогнозирования аварии во время полёта.

Утечка при разбиении данных (Train-Test Leakage): когда информация из тестовой выборки просачивается в тренировочную. Включает:
— анализ всех данных до разделения (корреляции, масштабирование)
— дубликаты и пересечения между train и test
— нарушение временного порядка для временных данных
— неправильное кросс-валидационное разделение

Утечка по идентификаторам (Entity Leakage): когда уникальные ID встречаются в обеих выборках, и модель запоминает их, а не закономерности.
📝 Пример: номер самолёта в train и test.

2️⃣ Внимательно выбирайте признаки

Удаляйте признаки, которые содержат информацию, недоступную на момент предсказания (например, отчёты после события).
Будьте осторожны с ID и уникальными идентификаторами — модель может просто «запомнить» их.

3️⃣ Соблюдайте правильный порядок работы с данными

Сначала разделяйте данные на тренировочные и тестовые, до любых вычислений и преобразований.
Для временных данных обязательно сохраняйте хронологический порядок, чтобы не давать модели информацию из будущего.
Избегайте дублирования и пересечений между train и test.

4️⃣ Правильно стройте пайплайны

Масштабирование, кодирование, уменьшение размерности (PCA и др.) обучайте только на тренировочных данных.
В кросс-валидации трансформации должны выполняться внутри каждого фолда отдельно.

5️⃣ Анализируйте только тренировочные данные

Корреляции, статистики и подбор параметров делайте только на тренировочных данных.
Не смотрите на тест, пока не завершите обучение и отладку.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/dsproglib/6548
Create:
Last Update:

👌 Как найти и избежать утечек данных: пошаговое руководство

Утечки данных — одна из самых распространённых и коварных ошибок в построении моделей машинного обучения.

Вот как шаг за шагом выявить и предотвратить утечки в проектах.

1️⃣ Понимайте, что такое утечка данных

Утечка — когда модель получает данные из будущего или из «ответов», которых не должно быть во время обучения. Вот основные типы:

Целевая утечка (Target Leakage): признаки напрямую или косвенно содержат информацию о целевой переменной.
📝Пример: использовать «сумму страховых выплат» при прогнозе повторной госпитализации.

Утечка после события (Post-Event Leakage): признаки формируются на основе данных, которые появляются после момента предсказания.
📝Пример: использовать данные после завершения полёта для прогнозирования аварии во время полёта.

Утечка при разбиении данных (Train-Test Leakage): когда информация из тестовой выборки просачивается в тренировочную. Включает:
— анализ всех данных до разделения (корреляции, масштабирование)
— дубликаты и пересечения между train и test
— нарушение временного порядка для временных данных
— неправильное кросс-валидационное разделение

Утечка по идентификаторам (Entity Leakage): когда уникальные ID встречаются в обеих выборках, и модель запоминает их, а не закономерности.
📝 Пример: номер самолёта в train и test.

2️⃣ Внимательно выбирайте признаки

Удаляйте признаки, которые содержат информацию, недоступную на момент предсказания (например, отчёты после события).
Будьте осторожны с ID и уникальными идентификаторами — модель может просто «запомнить» их.

3️⃣ Соблюдайте правильный порядок работы с данными

Сначала разделяйте данные на тренировочные и тестовые, до любых вычислений и преобразований.
Для временных данных обязательно сохраняйте хронологический порядок, чтобы не давать модели информацию из будущего.
Избегайте дублирования и пересечений между train и test.

4️⃣ Правильно стройте пайплайны

Масштабирование, кодирование, уменьшение размерности (PCA и др.) обучайте только на тренировочных данных.
В кросс-валидации трансформации должны выполняться внутри каждого фолда отдельно.

5️⃣ Анализируйте только тренировочные данные

Корреляции, статистики и подбор параметров делайте только на тренировочных данных.
Не смотрите на тест, пока не завершите обучение и отладку.

Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tg-me.com/dsproglib/6548

View MORE
Open in Telegram


Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

Date: |

Telegram and Signal Havens for Right-Wing Extremists

Since the violent storming of Capitol Hill and subsequent ban of former U.S. President Donald Trump from Facebook and Twitter, the removal of Parler from Amazon’s servers, and the de-platforming of incendiary right-wing content, messaging services Telegram and Signal have seen a deluge of new users. In January alone, Telegram reported 90 million new accounts. Its founder, Pavel Durov, described this as “the largest digital migration in human history.” Signal reportedly doubled its user base to 40 million people and became the most downloaded app in 70 countries. The two services rely on encryption to protect the privacy of user communication, which has made them popular with protesters seeking to conceal their identities against repressive governments in places like Belarus, Hong Kong, and Iran. But the same encryption technology has also made them a favored communication tool for criminals and terrorist groups, including al Qaeda and the Islamic State.

The Singapore stock market has alternated between positive and negative finishes through the last five trading days since the end of the two-day winning streak in which it had added more than a dozen points or 0.4 percent. The Straits Times Index now sits just above the 3,060-point plateau and it's likely to see a narrow trading range on Monday.

Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение from br


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM USA